Principal Componets Analysis

주성분 분석(Principal Components Analysis, PCA)_procomp
여러 개의 변수 중 서로 상관성이 높은 변수들의 선형결합으로 새로운 변수(주성분)을 만들어 기존 변수를
요약 및 축소하는 분석 방법

주어진 데이터를 하나의 변수로 요약하기 위해서는 데이터 손실(점선)이 발생할 수 밖에 없다.
데이터의 손실이 가장 작은 축(자료의 분산이 가장 큰 축)을 찾아 새로운 변수를 만든다.

주성분분석은 계산이 단순하고 데이터 부족이나 일률적 데이터 혹은 정렬되지 않은 속성을 가진 데이터도 처리할 수 있다.
주성분분석 #1

> cal<-c(52, 160, 89, 57, 34, 32, 30, 69)

> car<-c(112.4, 8.5, 22.8, 14.5, 8.2, 7.7, 7.6, 18.1)

> fat<-c(0.2, 14.7, 1.3, 0.7, 0.2, 0.3, 0.2, 0.2)

> pro<-c(0.3, 2.0, 1.1, 0.3, 0.8, 0.7, 0.6, 0.7)

> fib<-c(2.4, 6.7, 2.6, 2.4, 0.9, 2.0, 0.4, 0.9)

> sug<-c(10.4, 0.7, 12.2, 9.9, 7.9, 4.7, 6.2, 15.5)

> fruits<-data.frame(cal, car, fat, pro, fib, sug)


> result<-prcomp(fruits, center=T, scale.=T)


> result

Standard deviations (1, .., p=6):

[1] 2.01314374 1.05853762 0.81088150 0.35447821 0.19925394 0.06216644


Rotation (n x k) = (6 x 6):

           PC1         PC2         PC3         PC4          PC5        PC6

cal  0.4497789  0.25668231  0.39132362 -0.13770784  0.172277348 -0.7280357

car -0.1343382  0.86196398 -0.34816436  0.34088787  0.031790681 -0.0231893

fat  0.4899044  0.06599968 -0.03435189 -0.04290641  0.718838104  0.4856835

pro  0.4638167 -0.11821949  0.23112276  0.75978379 -0.345838088  0.1435447

fib  0.4608776  0.27563218 -0.08775242 -0.53083464 -0.577034897  0.2986026

sug -0.3348309  0.31117101  0.81446248 -0.06272348 -0.002897031  0.3518084


> summary(result)

Importance of components:

                          PC1    PC2    PC3     PC4     PC5     PC6

Standard deviation     2.0131 1.0585 0.8109 0.35448 0.19925 0.06217

Proportion of Variance 0.6755 0.1867 0.1096 0.02094 0.00662 0.00064

Cumulative Proportion  0.6755 0.8622 0.9718 0.99274 0.99936 1.00000

PC1, PC2 두개의 성분의 누적 설명력은 86.22%(67.55%+18.67%)이다.
주성분의 개수는 전체 데이터의 70% 이상을 설명할 수 있도록 선택한다.
주성분분석 #2-scree plot
scree plot은 x축을 성분의 개수, y축을 고유값(eigen value)로 하는 그래프로
주성분의 개수를 선택하는데 도움을 준다.
그래프가 수평을 유지하기 전단계를 주성분의 수로 선택

4와 5사이의 선이 수평이 유지된다고 판단되면, 주성분의 개수를 3개로 선택한다.
주성분 분석 #3-biplot
biplot은 첫 번째 주성분과 두 번째 주성분을 축으로 하는 그래프이다.
biplot 그래프는 다차원 척도법과 같이 주성분분석의 결과로 데이터를 시각화할 수 있다.
cal, fat, pro, fib는 수평방향으로 PC1에 영향을 받는 것임을 알 수 있다.
car는 수직방향으로 PC2의 영향을 받았음을 알 수 있다.

2번 과일은 풍부한 cal, fat, pro, fib를 가짐을 알 수 있다.